موارد زیر را تعریف کنید داده پرت: دادهای که به طور قابل مالحظهای از سایر دادههای دیگر )هم رده( فاصله دارد. تحلیل توسعه: گفته کنند می عوض را رفتارشان زمان طول در که اشیایی برای هایی مدل یافتن به اغلب داده توسعه تحلیل می شود. مثال پیش بینی قیمت یک کاال در یک بازار بورس. matlab.ir
نمودار :ROC نموداری جهت نمایش کارایی یک ردهبند دو ردهای که با تغییر سطح پذیرش یک رده TP =های گوناگون را در مقابل FP =های گوناگون نمایش میدهد. :Cross Validation نوعی روش ارزیابی است که در آن مجموعه داده به n بخش مجزا و بدون همپوشانی افراز شده و در n مرحله پشت سر هم هر بار یک بخش از این n بخش به عنوان مجموعه آزمایشی و بقیه به عنوان مجموعه آموزشی در نظر گرفته میشوند. مکعب داده: یک روش نمایش فشرده دادههای یک انبار داده است که در آن دادهها بر اساس یک معیار )مثال در سادهترین حالت فراوانی( و یک یا جند فیلد به صورت یک آرایه یک یا چند بعدی نمایش داده میشوند. تراکنش: تراکنش یک پردازش یکپارچه و هم روند روی پایگاه داده است. هدف این بود که اگر می خواهیم کاری انجام دهیم این کار در قالبی انجام شود که یقینا یکپارچه انجام بشود و اثر جانبی روی بقیه نگذارد. تعمیم: به طور ساده یعنی با دیدن چندین داده که یک حقیقت را نشان می دهند آن حقیقت را استنتاج کردن تعمیم گفته می شود. یعنی اینکه مثال ما امروز از خانه بیرون می رویم می بینیم که خورشید هست فردا هم همین طور روز بعد هم همین طور پس نتیجه می گیریم که هر وقت روز بود خورشید هم هست. به این فرایند از جز به کل رسیدن تعمیم می گوییم. رده بند: ساختن مدلی که بتواند یک الگو را در یکی از اعضای یک مجموعه از مفاهیم پیش تعیین شده به نام رده قرار دهد را رده بند گویند. این انتساب باید بگونه ای انجام پذیرد که الگوهای موجود در یک رده بیشترین و الگوهای موجود در رده های متفاوت کمترین شباهت را به هم داشته باشند. قانون انجمن: یعنی ارتباط بین دو پدیده که با هم مکرر رخ میدهند مثال هر وقت فرد خواسته پول بردارد قبل آن یک رسید دریافت کرده است. matlab.ir
خوشه بندی: به نوعی از رده بندی گوییم که از قبل دسته یا خوشه ها مشخص نیستند. داده کاوی تعریف کنید مراحل آن را نام ببرید و توضیح دهید. به بیان ساده میتوان گفت داده کاوی استخراج دانش از حجم زیادی از داده ها و یا اطالعات است. به عبارت دیگر عموما داده کاوی را فقط یکی از گام های اساسی در فرآیند کشف دانش می دانند. کشف دانش شامل مراحل زیر است. پاکسازی داده )حذف نویز و داده های متناقض( یکپارچه سازی داده )که در آن ممکن است منابع چند گانه ی داده ها با هم ترکیب شود( انتخاب داده ها )داده ها برای تجزیه و تحلیل از پایگاه داده ها بازیابی می شود( تبدیل داده )در آن داده ها به شکل های مناسب تبدیل و ثبت می شوند تا عملیات کاوش آسان تر انجام شود( داده کاوی )فرآیندی ضروری که روش هایی هوشمند برای الگوی استخراج داده معرفی می شود( ارزیابی الگو )شناسایی الگوهای جالب برای کسب دانش بر پایه تعریف الگوی جالب ( نمایش دانش )که از تکنیک هایی برای تجسم و ارائه دانش استخراج شده به کاربر استفاده می شود(.i.ii.iii.iv.v.vi.vii انواع داده های که روی آنها داده کاوی قابل انجام است را نام ببرید و توضیح دهید داده های پایگاه داده رابطه ای یک سیستم پایگاه داده یا سیستم مدیریت پایگاه داده از یک مجموعه ای از داده هایی که به هم مرتبط هستند پایگاه داده و یک سری نرم افزارهایی برای مدیریت و دسترسی به داده ها تشکیل می شود. انبارهای داده فرض کنید که شرکت AllElectronics یک شرکت بین المللی موفق می باشد که شعبه هایی را در سرتاسر دنیا دارد. هر شعبه دارای پایگاه داده های خودش می باشد. رئیس شرکت خواسته است که یک تحلیلی را در مورد فروش های هر کاال در هر شعبه برای فصل سوم سال بداند. این امر یک کار سخت برای پرس و جوهای رابطه ای می باشد چرا که داده ها روی چندین پایگاه داده توزیع شده در سرتاسر دنیا قرار دارد. اگر این شرکت یک انبار داده داشت این کار آسان می بود. یک انبار داده یک انباری از اطالعات می باشد که از چندین منبع جمع شده اند و تحت یک شمای یکپارچه ذخیره شده اند و اغلب در یک مکان نگهداری می شوند. پایگاه داده های تراکنشی matlab.ir
به طور کلی یک پایگاه تراکنشی از یک فایل که هر کدام از رکوردهایش یک تراکنش را نشان می دهد گفته شده است. یک تراکنش معموال شامل یک شناسه تراکنش و لیستی از اقالمی که آن تراکنش را می سازند می باشد برای نمونه تعداد مورد های خرید شده را شامل می شود. 4 سیستم های اطالعاتی و داده ای پیشرفته و کاربردهای پیشرفته 4 پایگاه داده های زمانی اغلب پایگاه داده های رابطه ای هستند که ویژگی های مرتبط به زمان را نگهداری می کنند. 4 پایگاه داده های دنباله ای رشته ای از حوادث مرتب شده و متوالی را نگهداری می کنند که هر کدام به ترتیب در بستر زمان رخ داده اند بدون معنای مستقیم زمان. برای مثال دنباله ی کلیک کردن در یک وب سایت را می توان پایگاه داده های دنباله ای بنامیم در حالی که پایگاه داده های سری زمانی پایگاه داده هایی می باشند که مقادیر یک سری حوادث یا ویژگی ها را بر روی زمان نشان دهند. مثال داده هایی که هر چند دقیقه مقدار بازار بورس را نمایش می دهد یا نگهداری دما بر حسب زمان. 4 پایگاه داده های زمانی مکانی پایگاه داده های مکانی شامل اطالعات مرتبط به مکان می باشند. مثال های از این نوع پایگاه داده ها پایگاه داده های جغرافیایی و مجتمع سازی در سطح بسیار باال یا پایگاه داده های طراحی به کمک کامپیوتر و پایگاه داده های تصاویر ماهواره ای و پزشکی است. 44 پایگاه داده های متنی و چندرسانه ای پایگاه داده هایی که از کلمات به منظور توصیف اشیا استفاده می کنند پایگاه داده های متنی گفته می شوند. ویژگی اصلی این پایگاه داده ها این است که به شدت بی ساختار می باشند. 54 پایگاه داده های متنی نیمه ساختارمند بعضی از پایگاه داده های متنی که تا حدودی ساختارمند هستند نیمه ساختارمند به آن ها گفته می شود. برای مثال ایمیل ها و بعضی وب پیج های HTML از این دسته هستند. 64 تار نمای جهانی وب تار نمای جهانی وب و سرویس های اطالعاتی توزیع شده مخصوص به خودش شبیه America online google yahoo Alta vista و سایر موارد سرویس های اطالعاتی برخط بسیار غنی و جهانی را فراهم می کند که اشیا داده های ما از طریق لینک matlab.ir
های به همدیگر متصل اند که دسترسی های درون اینترنتی را برای کاربران تسهیل کند. کاربران از یک وب پیج به وب پیج دیگر و مورد عالقه خود به وسیله لینک ها نقل مکان می کنند. 4 وظایف اصلی داده کاوی را نام ببرید و توضیح دهید توصیف کالس یا مفهوم مشخص سازی خواص و تفکیک سازی داده ها می توانند به رده ها و یا مفاهیم منتسب بشوند. برای مثال در شرکت AllElectronics کالس های اقالم فروخته شده اقالمی که برای فروش هستند می توانند شامل کامپیوترها پرینترها باشند در حالی که مفاهیم و یا کالس ها در مشتری ها می توانند خرج کننده های بزرگ یا خرج کننده های کوچک تقسیم بشوند. کاوش الگوهای پرتکرار ارتباطات و همرخداد الگوهای پرتکرار همانگونه که از اسمشان بر می آید الگوهایی هستند که به صورت فراوان در داده ها رخ می دهند. اگرچه انواع گوناگونی از این الگوها وجود دارند اما به طور معمول به مجموعه ای از اقالمی که به طور همزمان در یک مجموعه داده تراکنشی رخ می دهد ما اصطالحا مجموعه اقالم فراوان یا پرتکرار می گوییم. رده بندی و پیش بینی رده بندی به فرآیند یافتن مدل یا تابع توصیف کننده و تمایز دهنده ای که رده های داده ای و مفاهیم داده ای را به منظور تواناسازی ما به تعیین کالس یا رده اشیا جدید )با کمک آن مدل( گفته می شود. آن مدل بر اساس یک تحلیل بر روی داده های آموزشی به وجود آمده است که برای آن مجموعه آموزشی برچسب کالس آن ها را به عنوان ورودی به آن مدل می دهیم. 4 تحلیل خوشه تحلیل خوشه برعکس پیش بینی و رده بندی که ما تحلیلمان را بر روی یک سری اشیایی که بر چسب کالس آن ها را می دانیم می باشد است. خوشه بندی تحلیل اشیایی است که هیچ گونه مجموعه آموزشی برای آن ها وجود ندارد. هدف در خوشه بندی این می باشد که ما داده ها را در خوشه هایی قرار بدهیم که مشابهت بین داده های درون خوشه ای به حداکثر برسد در حالی که مشابهت بین داده های بیرون خوشه ای به حداقل برسد. 5 تحلیل داده دور افتاده یک پایگاه داده ممکن است شامل اشیائی یا داده هایی باشد که با رفتار عمومی و مدل داده ها همخوانی چندانی ندارد. این داده ها را به اصطالح داده های دور افتاده می گوییم. تحلیل داده دور افتاده را اصطالحا کاوش داده پرت یا دور افتاده می گوییم. 6 تحلیل توسعه تحلیل توسعه داده اغلب به یافتن مدل هایی برای اشیایی که در طول زمان رفتارشان را عوض می کنند گفته می شود. matlab.ir
5 مراحل پیش پردازش را نوشته و توضیح دهید )الف( پاکسازی داده: می تواند برای حذف و یا تصحیح خطا و سازگار سازی داده ها به کار گرفته شود )ب( ادغام و یکپارچه سازی داده: داده هایی را که از چندین منبع می باشند در یک مجموعه داده واحد منسجم می کند. )ج( تبدیل داده ها: همانند تکنیک نرمال سازی )نرمال سازی باعث بهبود و صحت کارایی الگوریتم های داده کاوی می شود( می تواند به کار گرفته شود. )د( کاهش داده می تواند حجم داده را با استفاده از اجتماع حذف صفات تکراری و یا خوشه بندی داده ها کاهش دهد. 6 انواع روش های اندازه گیری پراکندگی چند دسته اند تعریف کنید. الف( معیار توزیعی معیاری است که برای یک مجموعه داده ای با تقسیم کردن آن به زیر مجموعه های کوچکتر محاسبه می شود با محاسبه معیار برای هر زیر مجموعه و سپس ادغام نتایج برای رسیدن به مقدار کلی برای مجموعه داده اصلی انجام می شود. هر دو تابع Sum() و Count() معیار های توزیعی هستند ب( معیار جبری: یک معیار جبری معیاری است که با به کارگیری تابع جبری روی یک یا چند معیار توزیعی محاسبه می شود. از این رو میانگین )یا )Mean() یک معیار جبری است. ج( معیار کلی: یک معیار کلی معیاری است که روی کل مجموعه داده ای محاسبه می شود. این مقدار با تقسیم بندی داده به زیر مجموعه ها و ادغام مقادیر بدست آمده حاصل نمی شود. میانه نمونه ای از یک معیار کلی است. معیارهای کلی خیلی پرهزینه تر از معیارهای توزیعی است. 7 انواع تکنیک های کاهش داده را نام ببرید تکنیک های کاهش داده برای به دست آوردن نمایش مختصر مجموعه داده ای که از لحاظ حجم خیلی کوچکتر و در عین حال صحت و جامعیت داده اصلی را داراست به کار می روند. با این روش کاوش داده کاهش یافته موثر و کارآمدتر و منجر به تولید همان نتایج اصلی می شود. استراتژی های کاهش داده در زیر ذکر شده اند: اجتماع مکعب داده ای که عملیات اجتماع روی داده ها به منظور ساخت مکعب داده ای به کار می روند. انتخاب زیر مجموعه صفات: که صفات غیر مرتبط کم مرتبط و زائد کشف و حذف شوند. کاهش ابعاد که مکانیسم های کد گذاری برای کاهش اندازه مجموعه داده ای مورد استفاده قرار می گیرند. matlab.ir
4 کاهش چندی نمایش های داده ای کوچکتر همچون مدل های پارامتری ( که نیازمند ذخیره سازی فقط پارامترهای مدل و نه خود داده واقعی می باشند( و یا روش های غیر پارامتری همچون خوشه بندی نمونه گذاری و استفاده از هیستوگرام جایگزین داده اصلی می شوند. 5 گسسته سازی و تولید سلسله مراتب مفهومی مقادیر داده ای خام با محدوده یا سطوح مفهومی باالتر جایگزین می شوند. گسسته سازی داده شکل دیگری از کاهش چندی است که برای تولید خودکار سلسله مراتب مفهومی مفید است. گسسته سازی و تولید سلسله مراتب مفهومی ابزارهای قدرتمندی برای کاوش داده می باشند. آنها امکان کاوش داده را در چند سطح انتزاع فراهم می کنند. 8 تکنیک های کاهش چندی را نام ببرید مدل های رگرسیون و Loglinear هیستوگرام ها خوشه بندی 4 نمونه گیری 9 انبار داده را تعریف کنید و کلمات کلیدی آن را توضیح دهید انبار داده یک مجموعهی موضوعگرا ادغام شده متغیر با زمان و غیر فرار از دادهها است که برای پشتیبانی از فرایند اتخاذ تصمیم استفاده میشود. دارد. موضوعگرا: یک انبار داده بر اساس موضوعهای اساسی از قبیل مشتری فروشنده محصول و خرید سازماندهی میشود. عالوه بر تمرکز بر روی عملیات روز به روز و پردازش تراکنش یک سازمان یک انبار داده بر روی مدلسازی و تحلیل )آنالیز( داده برای تصمیمگیرندگان نیز تمرکز میکند. از این رو انبار داده معموال به موضوعاتی که در فرایند تصمیمگیری مفید نیستند توجه کمی ادغام شده: یک انبار داده معموال به وسیله مجتمع کردن چندین منبع غیر متجانس از قبیل پایگاه داده رابطهای فایلهای بدون قالب و رکوردهای تراکنش ساختارهای رمزگشایی میزان صفات و غیره به کار برده میشوند. بر خط ساخته میشود. تکنیکهای پاکسازی و ادغام داده برای اطمینان از ثبات قراردادها متغیر با زمان: دادهها به منظور داشتن اطالعات از زمانهای گذشته )5 سال گذشته( ذخیره میشوند. هر ساختار اصلی در انبار داده شامل یک عنصر زمان به صورت آشکار یا ناآشکار است. matlab.ir
4 غیر فرار: یک انبار داده معموال یک مخزن جداگانهی فیزیکی از دادههایی است که از دادههای کاربردی موجود در محیط عملیاتی انتقال داده شدهاند. به خاطر این جداسازی یک انبار داده به مکانیزمهای پردازش تراکنش بازیافت و کنترل همزمانی نیازی ندارد. انبار داده معموال به دو عملیات در دستیابی داده نیاز دارد: بارگیری اولیه داده و دستیابی داده مکعب داده چیست یک مکعب داده به داده اجازه میدهد تا به صورت چندبعدی مدل شده و نشان داده شوند. مکعب داده به وسیلهی ابعاد و حقایق تعریف میشود. عملیات OLAP در مدل دادهی چند بعدی را نام ببرید و توضیح دهید. :Rollup این عملیات با باال رفتن از نمودار سلسله مراتبی مفهومی در یک بعد یا با کاهش بعد متراکم سازی مکعب داده را اجرا میکند. :Drilldown عکس عملیات Rollup است. این عملیات از دادههای با جزییات بیشتر به سمت دادههای با جزییات کمتر میرود. عملیات drilldown با پایین آمدن از نمودار سلسله مراتبی مفهومی در یک بعد یا معرفی کردن بعد جدید انجام میگیرد. :Slice and dice عملیات slice کار انتخاب یک بعد از مکعب مشخص را اجرا میکند که منجر به یک زیر مکعب میشود. :pivot عملیات مجسم سازی است که بردارهای داده را به منظور ایجاد یک نمایش متناوب از دادهها میچرخاند. الف( کل قوانین انجمنی قابل تعریف بر روی جدول زیر چند قلم می باشد ب( حمایت و پوشش قانون {T} A = {F} B = را به دست آورید ج( کدام قانون انجمنی در بین قوانین انجمنی یک صفت به یک صفت بیشترین اعتماد را دارد د( کدام قانون انجمنی در بین قوانین انجمنی یک صفت به یک صفت بیشترین پوشش را دارد A B C D T T T T T F T F F T T F F F T T F F F T الف( matlab.ir
4 صفت صفت 4 دوصفت صفت 4 دوصفت دوصفت 4 4 قلم قانون انجمنی گوناگون خواهیم داشت. ب( پوشش برابر با 6 درصد و حمایت برابر با 66 درصد می باشد. ج( A = {T, F} B = {T, F} د( A = {T, F} B = {T, F} الف( نمودار جعبه ای را برای داده های زیر ترسیم کنید 7, 4, 7, 5, 8, 9,,, 9,,,,,,, 5, 9,, 7, ب( نمودار جعبه ای را برای داده های زیر ترسیم کنید 5, 44,,,,,, 4, 9,, 4,,, 7,, 5, 9,, 7,,, 4, 5,, 6 جواب الف( ابتدا داده ها را مرتب می کنیم. 7, 7, 7, 8, 9, 9, 9,,,,,,,,, 4, 5, 5,, اندیس چارک اول مطابق با رابطه زیر محاسبه می شود: DataNumber i 5 Index Qi = پس اندیس چارک اول برابر است با 5 که مقدار چارک اول عدد 9 می باشد. پس اندیس چارک دوم یا همان میانه برابر است با که مقدار چارک دوم عدد می باشد. همچنین اندیس چارک سوم برابر است با 5 که مقدار چارک سوم عدد می باشد. بنابراین IQR برابر است با 4. در نتیجه بازه اطمینان که به شکل IQR] Q].5 IQR, Q.5 تعریف می شود برابر است با [,9]. matlab.ir
9 9 7 7 جواب ب( matlab.ir
4 داده های زیر را در نظر بگیرید. این داده ها را با انواع روش های نرمال سازی زیر نرمال کنید. الف( نرمال سازی و 5 ب( نرمال سازی میانگین و انحراف معیار 7, 4, 7, 5, 8, 9,,, 9,,,,,,, 5, 9,, 7, پاسخ الف( y = max min max min (x min ) min در این معادله max برابر است با min 5 برابر است با max برابر است با و min برابر است با 6. بنابراین معادله y = 4 (x 7) 7 بال به شکل زیر نوشته می شود. حال هر عدد را در معادله فوق گذاشته و حاصل را می نویسیم.,.79,.5,.8,.56,.6,.7,.67,.6,.64, 5,.5,.75,.67,.64,.8,.6,.64,.5,.75 پاسخ ب( μ = 7 4 7 5 8 9 9 5 9 7 μ = 97 = 4.85 σ =.9.8,.4,.9,.,.4,.9,.4,.9,.9,.4, 4.,.,.9,.9,.4,.,.9,.4,.9,.9 5 الف( فرض کنید A و B دو صفت عددی در یک پایگاه داده هستند. همچنین فرض کنید α و β دو ثابت عددی هستند. فرض کنید r A,B همبستگی صفات A و B است. نشان دهید r. βaα,b = r A,B ب( داده های زیر را در نظر بگیرید. ویژگی A بیشترین همبستگی را با کدام ویژگی دارا میباشد. matlab.ir
A 4 4 5 B 4 4 4 5 5 C D 4 5 5 5 6 6 E F 5 5 5 6 6 جواب( r A,B = N i= ابتدا همبستگی بین ویژگی A و B را بر طبق رابطه زیر محاسبه میکنیم. (a i A )(b i B ) = N i= (a ib i ) NA B Nσ A σ B Nσ A σ B r A,B = 4 4 4 4 4 5 5 5 6.5 4.7 6.5.75 r βaα,b = N i= ((βa i α)b i ) N(βA α)b = N i= (βa ib i ) N i= (αb i ) Nβσ A σ B =.74 N(βA α)b چنان که می دانیم: Nβσ A σ B = N i= (βa ib i ) α N i= b i NβA B NαB = β N i= (a ib i ) NαB NβA B NαB Nβσ A σ B Nβσ A σ B = β N i= (a ib i ) NβA B = β( N i= (a ib i ) NA B ) = N i= (a ib i ) NA B = r Nβσ A σ B Nβσ A σ B Nσ A σ A,B B r A,B از آنجایی که صفت c i = 5 b i است r A,C است نیز برابر نیز برابر یعنی.64 است. به دلیل مشابه آنجایی که صفت i d i = b یعنی.64 است. همبستگی بین ویژگی A و E را بر طبق رابطه زیر محاسبه میکنیم. r A,E = N i= (a i A )(e i E ) = N i= (a ie i ) NA E Nσ A σ E Nσ A σ E r A,B r A,D r A,E = 4 4 5 6.5. 6.5.8 r A,F r A,D =.78 آنجایی که صفت f i = b i است نیز برابر 6 چهار ویژگی item customer location و time را در نظر بگیرید. یعنی.64 است. پس همبستگی صفات A و E از همه بیشتر است. matlab.ir
الف( شبکه کعبها را برای آنها ترسیم کنید. شود ب( اگر سلسله مراتب مفهومی روی هر ویژگی شبیه به زیر باشد چند مکعب گوناگون روی این ویژگیها تعریف می جواب الف( matlab.ir
جواب ب( (5 ) ( ) (4 ) (4 ) = 6 7 فرض کنید یک گروه 5 نفری مورد تحقیق قرار بگیرند. جنسیت هر شخص ذکر شده است. از هر شخص در مورد نوع کتاب مورد مطالعه که داستانی یا غیرداستانی است پرسیده شده است. بنابراین ما دو صفت داریم جنس شخص یا gender و نوع کتاب یا.preferred_Reading فراوانی )تعداد( مشاهده شده از رخداد توام در جدول پیشامد زیر خالصه شده است. Male Female Total Fiction 5 45 nfiction 5 5 Total 5 مطلوب است تحلیل همبستگی صفات رده بندی )گسسته( با استفاده از χ. با چه اطمینانی این دو وابسته هستند فرض کنید جدول زیر را داریم. درجه سطح اطمینان سطح قبول برای وابستگی matlab.ir
.6 4.6 6.5 6.67.6. 96 6 6 6 6.67 67 6 6 6 6 96 6 69 76. 67 6...................... 4 4 4 4 جواب( e ij = count(a = a i) count(b = b j ) N ابتدا فراوانی مورد انتظار برای هر یک از درایههای جدول را با استفاده از معادله زیر به دست میآوریم. با استفاده از فرمول باال می توان فراوانی مورد انتظار برای هر خانه جدول را محاسبه کرد. برای مثال فراوانی مورد انتظار برای خانه e = count(male) count(fiction) N = 45 5 = 9 fiction( )male, در زیر محاسبه شده است. توجه کنید که مجموع فراوانی های مورد انتظار در هر سطر مساوی با تعداد کل فراوانی مشاهده شده برای آن سطر و مجموع فراوانی های مورد انتظار در هر ستون مساوی با تعداد کل فراوانی های مشاهده شده برای آن ستون است. matlab.ir
جدول زیر فراوانی مورد انتظار درایه ها است. Male Female Total Fiction 9 6 45 nfiction 84 5 Total 5 حال با استفاده از معادله زیر χ را محاسبه مینماییم. c r χ = (o ij e ij ) i= j= e ij = (5 9) 9 (5 ) = 84/44 /9 7/ /48 = 57/9 ( 6) 6 ( 84) 84 برای این جدول درجه آزادی برابر با = )()( است. برای درجه آزادی مقدار در سطح / برابر با.7 )از نقاط باالی توزیع χ χ مورد نیاز برای رد این فرضیه از جدول گرفته شده است( است. از آن جایی که مقدار محاسبه شده از این مقدار باالتر است ما این فرضیه که دو صفت gender و preferred_reading مستقل هستند را رد و نتیجه می گیریم که دو صفت ذکر شده برای این گروه افراد کامال وابسته است. با همین تحلیل برای درجه آزادی مقدار χ مورد نیاز برای رد این فرضیه در سطح / برابر با 5.4 است. از آن جایی که مقدار محاسبه شده از این مقدار باالتر است ما این فرضیه که دو صفت gender و preferred_reading مستقل هستند را رد و نتیجه می گیریم که دو صفت ذکر شده برای این گروه افراد کامال وابسته است. با همین تحلیل برای درجه آزادی مقدار χ 9.5 مورد نیاز برای رد این فرضیه در سطح / برابر با است. از آن جایی که مقدار محاسبه شده از این مقدار باالتر است ما این فرضیه که دو صفت و gender preferred_reading مستقل هستند را رد و نتیجه می گیریم که دو صفت ذکر شده برای این گروه افراد کامال وابسته است. با همین تحلیل برای درجه آزادی مقدار χ مورد نیاز برای رد این فرضیه در سطح / برابر با.9 است. از آن جایی که مقدار محاسبه شده از این مقدار باالتر است ما این فرضیه که دو صفت gender و preferred_reading مستقل هستند را رد و نتیجه می گیریم که دو صفت ذکر شده برای این گروه افراد کامال وابسته است. ولی برای درجه آزادی مقدار مورد χ نیاز برای رد این فرضیه در سطح / برابر با 7.6 است. از آن جایی که مقدار محاسبه شده از این مقدار پایینتر است ما این فرضیه که دو صفت gender و preferred_reading مستقل هستند را رد و نتیجه می گیریم که دو صفت ذکر شده برای این گروه افراد کامال وابسته است. پس سطح اطمینان وابستگی این دو برابر زیر است:. =.9999999 7 بهترین نقطه برش برای برای صفت Taxable Income را محاسبه کنید matlab.ir
Taxable Income 5K K 7K K 95K 6K K 85K 75K 9K Cheat Yes Yes Yes جواب در گام اول ویژگی Taxable Income را تبدیل به یک ویژگی باینری میکنیم. ابتدا برش بر روی 6K را انجام میدهیم. در نتیجه مجموعه داده به شکل زیر در خواهد آمد. Taxable Income Cheat Yes Yes Yes ارزش این برش را محاسبه میکنیم. Info 6K TI = 9 ( ( 9 log9 6 9 log9 )) =. 8 6 Info 7K TI = 8 ( ( 8 log8 5 8 log8 )) =. 76 5 Info 75K TI = 7 ( ( 7 log7 4 7 log7 )) =. 69 4 Info 85K TI = 4 ( ( 4 log4 4 log4 )) 6 ( ( 6 log6 4 6 log6 )) =. 88 4 matlab.ir
Info 9K TI = 5 ( ( 5 log5 5 log5 )) 5 ( ( 5 log5 4 5 log5 )) =. 85 4 Info 95K TI = 6 ( ( 6 log6 6 log6 )) 4 ( ( 6 log6 6 log6 )) =. 6 4 Info K TI = 7 ( (4 7 log7 7 log7 )) =. 69 5 Info K TI = 8 ( (5 8 log8 8 log8 )) =. 76 6 Info 5K TI = 9 ( (6 9 log9 9 log9 )) =. 8 پس بهترین برش "95K=>" است. 9 یک ردهبند شبکه عصبی MLP آموزش دیده بر روی دادههای افراد سرطانی و غیر سرطانی در زیر نمایش داده شده است. نرونهای یک و دو از یک تابع فعالیت خطی )PureLine( استفاده میکنند و نرون از تابع فعالیت logsig استفاده میکند. مقدار بایاس )b( نرونهای و به ترتیب است. این ردهبند را بر روی بیست داده زیر تست میکنیم. دقت )Accuracy( صحت )Precision( فراخوان )Recall( معیار فیشر )FMeasure( و نمودار ROC این ردهبند را به دست آورید. نکته: حالتی را در نظر بگیرید که بیشترین کارایی را دارد. در شرایط مساوی )Tie( به نفع رده غیر سرطانی قضاوت شود. F نرون نرون F نرون logsig(x) = نکته: e x مجموعه داده تست برچسب ویژگی ( )F ویژگی ( )F matlab.ir
4 4 4 4 جواب e (()( F F )( )( F F )) = e ( F F F 4F ) = خروجی کل شبکه از تابع زیر به دست میآید. e F F خروجی شبکه بر مجموعه داده آزمایشی به شکل زیر است. مقادیر پیشبینی شده برچسب واقعی 67 6 6 69 6.7 6 6.9 6 69 6 matlab.ir
6999 67 69 6999 6 69. 6997. 6.9 6 699 برای بخش اول ابتدا سطح رده مثبت را ).5 < مقدار( در نظر میگیریم. Accuracy = 9 = 95% Precision = = 9% برچسب پیشبینی شده مقادیر پیشبینی شده برچسب واقعی 67 6 6 69 6.7 6 6.9 6 69 6 6999 67 69 6999 6 69. 6997. 6.9 6 699 matlab.ir
Recall = = % Recall Precision F_Measure = Recall Precision = 95% برای محاسبه ROC ابتدا سطح رده مثبت را ) < مقدار( در نظر میگیریم. پس برچسبهای پیشبینی شده به شکل زیر خواهند بود. برچسب پیشبینی شده مقادیر پیشبینی شده برچسب واقعی تعداد برچسبهای مثبت پیشبینی شده غلط FP = تعداد برچسبهای منفی 67 6 6 69 6.7 6 6.9 6 69 6 6999 67 69 6999 6 69. 6997. 6.9 6 699 = = % یعنی TP و FP از روابط زیر برابر و خواهند بود. تعداد برچسبهای مثبت پیشبینی شده درست TP = تعداد برچسبهای مثبت = = % سپس سطح رده مثبت را )999 <. مقدار( در نظر میگیریم. پس برچسبهای پیشبینی شده به شکل زیر خواهند بود. matlab.ir
برچسب پیشبینی شده مقادیر پیشبینی شده برچسب واقعی تعداد برچسبهای مثبت پیشبینی شده غلط FP = تعداد برچسبهای منفی = 8 = 8% 67 6 6 69 6.7 6 6.9 6 69 6 6999 67 69 6999 6 69. 6997. 6.9 6 699 یعنی: تعداد برچسبهای مثبت پیشبینی شده درست TP = تعداد برچسبهای مثبت = = % سپس سطح رده مثبت را )9976 <. مقدار( در نظر میگیریم. پس برچسبهای پیشبینی شده به شکل زیر خواهند بود. برچسب پیشبینی شده مقادیر پیشبینی شده برچسب واقعی 67 6 6 69 6.7 matlab.ir
تعداد برچسبهای مثبت پیشبینی شده غلط FP = تعداد برچسبهای منفی 6 6.9 6 69 6 6999 67 69 6999 6 69. 6997. 6.9 6 699 = 7 = 7% یعنی: تعداد برچسبهای مثبت پیشبینی شده درست TP = تعداد برچسبهای مثبت = = % سپس سطح رده مثبت را ).99 < مقدار( در نظر میگیریم. پس برچسبهای پیشبینی شده به شکل زیر خواهند بود. برچسب پیشبینی شده مقادیر پیشبینی شده برچسب واقعی 67 6 6 69 6.7 6 6.9 6 69 6 6999 matlab.ir
تعداد برچسبهای مثبت پیشبینی شده غلط FP = تعداد برچسبهای منفی 67 69 6999 6 69. 6997. 6.9 6 699 = 6 = 6% یعنی: تعداد برچسبهای مثبت پیشبینی شده درست TP = تعداد برچسبهای مثبت = = % سپس سطح رده مثبت را )98 <. مقدار( در نظر میگیریم. پس برچسبهای پیشبینی شده به شکل زیر خواهند بود. برچسب پیشبینی شده مقادیر پیشبینی شده برچسب واقعی 67 6 6 69 6.7 6 6.9 6 69 6 6999 67 69 6999 6 69. 6997. matlab.ir
تعداد برچسبهای مثبت پیشبینی شده غلط FP = تعداد برچسبهای منفی 6.9 6 699 = 5 = 5% یعنی: تعداد برچسبهای مثبت پیشبینی شده درست TP = تعداد برچسبهای مثبت = = % سپس سطح رده مثبت را )956 <. مقدار( در نظر میگیریم. پس برچسبهای پیشبینی شده به شکل زیر خواهند بود. برچسب پیشبینی شده مقادیر پیشبینی شده برچسب واقعی 67 6 6 69 6.7 6 6.9 6 69 6 6999 67 69 6999 6 69. 6997. 6.9 6 699 یعنی: تعداد برچسبهای مثبت پیشبینی شده غلط FP = = 4 تعداد برچسبهای منفی = 4% matlab.ir
تعداد برچسبهای مثبت پیشبینی شده درست TP = تعداد برچسبهای مثبت = = % سپس سطح رده مثبت را )888 <. مقدار( در نظر میگیریم. پس برچسبهای پیشبینی شده به شکل زیر خواهند بود. برچسب پیشبینی شده مقادیر پیشبینی شده برچسب واقعی تعداد برچسبهای مثبت پیشبینی شده غلط FP = تعداد برچسبهای منفی = = % 67 6 6 69 6.7 6 6.9 6 69 6 6999 67 69 6999 6 69. 6997. 6.9 6 699 یعنی: تعداد برچسبهای مثبت پیشبینی شده درست TP = تعداد برچسبهای مثبت = = % سپس سطح رده مثبت را )7 <. مقدار( در نظر میگیریم. پس برچسبهای پیشبینی شده به شکل زیر خواهند بود. برچسب پیشبینی شده مقادیر پیشبینی شده برچسب واقعی 67 matlab.ir
تعداد برچسبهای مثبت پیشبینی شده غلط FP = تعداد برچسبهای منفی 6 6 69 6.7 6 6.9 6 69 6 6999 67 69 6999 6 69. 6997. 6.9 6 699 = = % یعنی: تعداد برچسبهای مثبت پیشبینی شده درست TP = تعداد برچسبهای مثبت = = % سپس سطح رده مثبت را )5 <. مقدار( در نظر میگیریم. پس برچسبهای پیشبینی شده به شکل زیر خواهند بود. برچسب پیشبینی شده مقادیر پیشبینی شده برچسب واقعی 67 6 6 69 6.7 6 6.9 matlab.ir
تعداد برچسبهای مثبت پیشبینی شده غلط FP = تعداد برچسبهای منفی 6 69 6 6999 67 69 6999 6 69. 6997. 6.9 6 699 = = % یعنی: تعداد برچسبهای مثبت پیشبینی شده درست TP = تعداد برچسبهای مثبت = = % سپس سطح رده مثبت را )689 <. مقدار( در نظر میگیریم. پس برچسبهای پیشبینی شده به شکل زیر خواهند بود. برچسب پیشبینی شده مقادیر پیشبینی شده برچسب واقعی 67 6 6 69 6.7 6 6.9 6 69 6 6999 67 69 matlab.ir
تعداد برچسبهای مثبت پیشبینی شده غلط FP = تعداد برچسبهای منفی 6999 6 69. 6997. 6.9 6 699 = = % یعنی: تعداد برچسبهای مثبت پیشبینی شده درست TP = = 9 تعداد برچسبهای مثبت = 9% سپس سطح رده مثبت را )9 <. مقدار( در نظر میگیریم: FP = = % TP = 8 = 8% سپس سطح رده مثبت را )474 <. مقدار( در نظر میگیریم: FP = = % TP = 7 = 7% سپس سطح رده مثبت را )8 <. مقدار( در نظر میگیریم: FP = = % TP = 6 = 6% سپس سطح رده مثبت را )67 <. مقدار( در نظر میگیریم: FP = = % TP = 5 = 5% سپس سطح رده مثبت را )5 <. مقدار( در نظر میگیریم: matlab.ir
FP = = % TP = 4 = 4% سپس سطح رده مثبت را )9 <. مقدار( در نظر میگیریم: FP = = % TP = = % سپس سطح رده مثبت را ) <. مقدار( در نظر میگیریم: FP = = % TP = = % سپس سطح رده مثبت را ) <. مقدار( در نظر میگیریم: FP = = % TP = = % نمونههای آموزشی زیر را در نظر بگیرید. X y z تعداد نمونههای کالس C تعداد نمونههای کالس C 5 4 matlab.ir
5 5 45 5 5 5 5 در درخت تصمیم به دست آمده آنتروپی هر یک از گرههای برگ را محاسبه نمایید. ) نمره( مجموعه دادههای زیر را در نظر بگیرید. Tid 4 5 6 7 8 9 Refund Yes Yes Yes Marital Status Single Married Single Married Divorced Married Divorced Single Married Single Taxable Income 5k k 7k k 95k 6k k 85k 75k 9k Evad Yes Yes Yes فرض کنید احتمال تعلق هر صفت پیوسته Taxable Income به هر یک از کالسهای Yes و دارای توزیع نرمال باشد. همچنین فرض کنید هر یک از صفتها برای هر رده مفروض مستقل از هم باشند. همچنین رکورد تست زیر را در نظر بگیرید. X=(Refund=Yes, Marital Status=Married, Income=8) با استفاده از ردهبند Naïve Bayes رده این نمونه تست را تعیین نمایید. ) نمره( Feature Subset Selection چیست چه رهیافتهایی برای انجام آن روی دادهها وجود دارد تفاوت آن با Dimension Reduction چیست 5( نمره( وظایف اصلی دادهکاوی را نام برده و به صورت مختصر و مفید شرح دهید. ) نمره( 4 مسئله "نفرین ابعاد" یا "مشکل ابعاد" یا Dimensionality" "Curse of چه مسئلهای است )5 نمره( 5 شباهت و تفاوت شبکه عصبی مصنوعی )ANN( با ماشین بردار پشتیبان )SVM( در چیست توضیح دهید. )5 نمره( matlab.ir
6 دادههای مقابل را در نظر بگیرید. بهترین حد آستانه را برای gain حداکثر برای ویژگی X )بر اساس آنتروپی( به Number X Y Class 5 4 C C 5 C 4 C 5 5 C 6 5 C 7 5 9 C 8 6 C دست آورید. )6 نمره( 7 دادههای زیر را در نظر بگیرید. الگوریتم kmeans را روی این دادهها تا حداکثر تکرار اعمال کنید. نمونههای و 4 را به عنوان مراکز اولیه در نظر بگیرید. روی نتیجه خوشهبندی به دست آمده از الگوریتم kmeans خطای Number X Y Z Class 4 4 5 8 8 6 8 4 9 7 9 8 8 9 8 9 9 8 کل )یا )SSE را محاسبه نمایید. ) نمره( 8 با استفاده از ماتریس مجاورت زیر نقاط داده شده را طبق الگوریتم Average_Linkage به طور کامل به صورت سلسله مراتبی خوشهبندی کرده و درخت dendrogram آن را رسم نمایید. در هر مرحله از الگوریتم ماتریس مجاورت به روز رسانی شده را به دست آورید. ) نمره( Points P P P P4 P5 P6 P.7.5.9..5 P.7.55.45..8 P.5.55.6.. P4.9.45.6.75.4 P5....75 o.85 P6.5.8..4.85 9 OverTraining و UnderTraining را توضیح دهید. )6 نمره( matlab.ir
یک مجموعه داده با دو ویژگی X نظر بگیرید. X و و برچسب y را در نظر بگیرید. ماتریس کواریانس زیر بین ویژگیها و برچسب را در الف( فرض کنید d عددی بسیار بزرگ در مقایسه با سایر اعداد این ماتریس است. آیا میتوان نتیجه گرفت که با حذف یکی از این ویژگیها کارایی ردهبندی افت نخواهد کرد توضیح دهید. ب( فرض کنید d عددی بسیار کوچک در مقایسه با سایر اعداد این ماتریس است. آیا میتوان نتیجه گرفت که با حذف یکی از این ویژگیها کارایی ردهبندی افت نخواهد کرد توضیح دهید. ج( فرض کنید d صفر است. آیا میتوان نتیجه گرفت که با حذف یکی از این ویژگیها کارایی ردهبندی افت نخواهد کرد توضیح دهید. د( فرض کنید e صفر است. آیا میتوان نتیجه گرفت که با حذف یکی از این ویژگیها کارایی ردهبندی افت نخواهد کرد توضیح دهید. ذ( فرض کنید f صفر است. آیا میتوان نتیجه گرفت که با حذف یکی از این ویژگیها کارایی ردهبندی افت نخواهد کرد توضیح دهید. ه( فرض کنید c صفر است. آیا میتوان نتیجه گرفت که با حذف یکی از این ویژگیها کارایی ردهبندی افت نخواهد کرد توضیح دهید. جواب الف( درست کوواریانس باال یعنی همبستگی زیاد. همبستگی زیاد بین دو صفت یعنی یکی از صفات اضافه است. ب( درست )چرا که ممکن است منفی باشد و اندازه آن بسیار بزرگ( اندازه همبستگی زیاد بین دو صفت یعنی یکی از صفات اضافه است. ج( غلط اندازه کوواریانس کم یعنی همبستگی کم و عدم ارتباط بین آن دو صفت. همبستگی کم بین دو صفت یعنی هیچ یک از صفات اضافه نیست. د( درست اندازه کوواریانس کم یعنی همبستگی کم و عدم ارتباط بین صفت ذ( درست به دلیل قسمت د این بار صفت x x بی تاثیر است. و برچسب. پس حذف x صفت بی تاثیر است. matlab.ir
ه( درست اگر c صفر است پس برچسب فقط یک حالت دارد. یعنی مساله تک ردهای است. پس حذف هر دو صفت نیز در کارایی ردهبندی بی تاثیر است. آیا ارتباطی بین اندازه دادهها و پدیده یادگیری بیش از حد )Overfitting( وجود دارد با مثال توضیح دهید. جواب( بله نمونههای کم باعث کم شدن تعمیم و کم عمق شدن اطالعات الزم برای یادگیری میشود. پس با یادگیری زیاد داده های کم پدیده یادگیری بیش از حد رخ میدهد. فرض کنید از مجموعه داده زیر یک ویژگی را میخواهیم حذف کنیم. کدام یک از ویژگی زیر را حذف کنیم. چرا جواب( با به دست آوردن ماتریس کوواریانس خواهیم فهمید که هیچ صفتی بر دیگری ارجحیت ندارد. پس هر صفتی را میتوان حذف کرد..5. Cov = [..5........ ].5...5 یک شبکه عصبی MLP برای دادههای زیر ترسیم کنید به گونهای که روی این دادهها خطا نداشته باشد. وزنها را به صورت دستی تنظیم کنید. matlab.ir
جواب فضای دادههای دو رده در شکل زیر نشان داده شده است. دو خط = 4 x y و = y الزم است تا رده * را تشخیص داد. رده * به شکل زیر تشخیص داده میشود: y x 4 < matlab.ir
y یعنی اگر هر دو شرط باال بر قرار باشد رده * است و در غیر این صورت رده است. پس از یک شبکه به شکل زیر استفاده می کنیم. x نرون نرون y نرون هر سه نرون از تابع فعالیت sgn(x) که به شکل زیر تعریف میشوند استفاده میکنند. که sgn(x) = { x x < نرون تفکیک خطی 4 x y را انجام میدهد. نرون تفکیک خطی y را انجام میدهد. نرون نیز در صورتی را در خروجی میبرد که خروجی نرون باشد و خروجی نرون باشد. در نهایت این شبکه اگر خروجی تولید کرد به معنی رده * است و اگر خروجی تولید کرد به معنی رده است. 4 دو متغیر تصادفی X و Y را در نظر بگیرید. فرض کنید که μ و σ به ترتیب میانگین و انحراف معیار را نشان دهند. فرض کنید μ X دهند. σ X و I( همبستگی: به ترتیب میانگین و انحراف معیار X را نشان دهند. رابطه متقابل بین X و Y را با یکی از روشهای زیر نمایش می Cov(X, Y) = E ((X μ X )(Y μ Y )) = E(XY) μ X μ Y )II ضریب همبستگی: Cov(X, Y) ρ XY = σ X σ Y )III اطالعات متقابل: matlab.ir
)IV اطالعات متقابل نرمال شده: MI(X, Y) = H(X) H(X Y) = KL(P(X, Y) P(X)P(Y)) NMI(X, Y) = MI(X, Y) H(Y) الف( ثابت کنید اندازه ضریب همبستگی حداکثر یک است. نکته: ).E(XY) E(X )E(Y ب( با مثال بگویید چه موقع همبستگی یک میشود. با مثال بگویید چه موقع همبستگی منفی یک میشود. ت( ثابت کنید اطالعات متقابل نرمال شده حداکثر یک است. نکته: H(X) = p(x) log(p(x)) dx آنتروپی متغیر تصادفی X است. پ( با مثال بگویید اطالعات متقابل نرمال شده چه موقع یک میشود. ج( اگر ضریب هبستگی صفر باشد آیا اطالعات متقابل نرمال شده صفر میشود. اثبات کنید یا مثال نقض بیاورید. چ( اگر اطالعات متقابل نرمال شده صفر باشد آیا ضریب هبستگی صفر میشود. اثبات کنید یا مثال نقض بیاورید. د( اگر اطالعات متقابل نرمال شده یک باشد آیا ضریب هبستگی یک میشود. اثبات کنید یا مثال نقض بیاورید. جواب الف( ρ XY = Cov(X, Y) = E ((X μ X )(Y μ Y )) = E(XY) μ X μ Y σ X σ Y σ X σ Y σ X σ Y matlab.ir
ρ XY = E(XY) μ X μ Y σ X σ Y x = μ Y X y = μ X Y = E(XY) E(XY)μ X μ Y μ X σ X σy μy E(X )E(Y ) E(XY)E(X)E(Y) E(X) E(Y) (E(X ) E(X) )(E(Y ) E(Y) ) E(X )E(Y ) E(X) E(Y) E(XY)E(X)E(Y) = E(X )E(Y ) E(X) E(Y) E(X )E(Y) E(Y )E(X) = E(X )E(Y ) E(X) E(Y) E(X )E(Y) E(Y )E(X) E(X )E(Y ) E(X) E(Y) E(X )E(Y) E(Y )E(X) E(X )E(Y) E(Y )E(X) E(XY)E(X)E(Y) E(X )E(Y ) E(X) E(Y) E(X )E(Y) E(Y )E(X) E(XY)μ = X μ Y E(X )μ Y E(Y )μ X E(X )E(Y ) E(X) E(Y) E(X )E(Y) E(Y )E(X) E ((μ Y X)(μ X Y)) E ((μ X Y) ) E ((μ Y X) ) = E(X )E(Y ) E(X) E(Y) E(X )E(Y) E(Y )E(X) (E ((μ Y X)(μ X Y)) E ((μ X Y) )) (E ((μ Y X)(μ X Y)) E ((μ Y X) )) = E(X )E(Y ) E(X) E(Y) E(X )E(Y) E(Y )E(X) ρ XY (E(xy) E(y ) E(xy) E(x )) فرض کنید تغییر متغیر زیر را انجام دهیم: با جایگذاری متغیرهای باال معادله باال به شکل زیر خواهد بود: از طرفی داریم: E(xy) E(x ) = x yp(x, y)dy dx xxp(x)dx = x yp(x, y)dy dx x xp(x, y)dy dx = x (y x)p(x, y)dy dx = E(x(y x)) E(xy) E(y ) = E(y(x y)) = E(( y)(y x)) با جایگذاری روابط باال معادله باال به شکل زیر خواهد بود: matlab.ir
ρ XY E(x(x y) y(x y)) = E((x y) ) از آنجایی که: E((x y) ) E((x y) ) E((x y) ) پس: ρ XY ب( همبستگی وقتی یک میشود که یکی از ویژگیها با یک رابطه خطی با شیب مثبت نسبت به دیگری به دست آید. مثال همبستگی دو بردار زیر یک است. 5 6 همبستگی وقتی منفی یک میشود که یکی از ویژگیها با یک رابطه خطی با شیب منفی نسبت به دیگری به دست آید. مثال همبستگی دو بردار زیر منفی یک است. 6...6.9 ج( MI(X, Y) = H(X) H(X Y) = (p(x) log(p(x)) p(x Y) log(p(x Y)))dX = (p(x) log(p(x)) p(x Y) p(x Y) log ( )) dx = P(Y) P(Y) 5 نمونههای آموزشی زیر را در نظر بگیرید. matlab.ir
X y z تعداد نمونههای کالس C تعداد نمونههای کالس C 5 4 5 5 45 5 5 5 5 از آستانه هرس با خلوص.8 استفاده کنید. 6 دقت knn را بر روی مجموعه داده زیر محاسبه کنید و جدول زیر را پر کنید. با فرض اینکه از تکنیک oneleaveout استفاده میشود. در صورت رخداد حالت برابر )Tie( بین دو رده خطا را.5 )نیم( واحد در نظر بگیرید. جواب 7 مجموعه دادههایی را در نظر بگیرید که خالصه آن در جدول زیر را آورده شده است. matlab.ir
X y z تعداد نمونههای کالس C تعداد نمونههای کالس C a 5 4 a 5 b 5 b 45 c 5 c 5 b 5 b 5 بین صفات x و y با چه اطمینانی همبستگی وجود ندارد فرض کنید جدول زیر را داریم. درجه 4 4 4 4 سطح اطمینان...................... سطح قبول برای وابستگی.6 4.6 6.5 6.67.6. 96 6 6 6 6.67 67 6 6 6 6 96 6 69 76. 67 6 matlab.ir
جواب( در اولین گام جدول زیر را به دست میآوریم. x = a x = b x = c Total y = 6 4 y = Total 6 4 سپس فراوانی مورد انتظار برای هر یک از درایههای جدول را با استفاده از معادله زیر به دست میآوریم. e ij = count(a = a i) count(b = b j ) N با استفاده از فرمول باال می توان فراوانی مورد انتظار برای هر خانه جدول را محاسبه کرد. برای مثال فراوانی مورد انتظار برای خانه )a,( در زیر محاسبه شده است. e = count() count(a) N = 6 = توجه کنید که مجموع فراوانی های مورد انتظار در هر سطر مساوی با تعداد کل فراوانی مشاهده شده برای آن سطر و مجموع فراوانی های مورد انتظار در هر ستون مساوی با تعداد کل فراوانی های مشاهده شده برای آن ستون است. جدول زیر فراوانی مورد انتظار درایه ها است. x = a x = b x = c Total y = 5 y = 5 Total 6 4 حال با استفاده از معادله زیر χ را محاسبه مینماییم. matlab.ir
c r χ = (o ij e ij ) i= j= e ij = (6 ) = 6 4 = ( 5) 5 (4 ) برای این جدول درجه آزادی برابر با = )()( است. برای درجه آزادی مقدار χ مورد نیاز برای رد این فرضیه در هر سطحی مقدار محاسبه شده از این مقدار باالتر است. پس ما این فرضیه که دو صفت gender و preferred_reading مستقل هستند را رد و نتیجه می گیریم که دو صفت ذکر شده برای این گروه افراد کامال وابسته است. پس سطح اطمینان وابستگی این دو برابر زیر است:. =.9999999 matlab.ir
matlab.ir